iT邦幫忙

2024 iThome 鐵人賽

DAY 2
0
生成式 AI

從 0 到 1 學習生成式 AI 模型建立以及 Prompt 技巧系列 第 2

第 2 天:LLM (Large Language Model )是什麼?

  • 分享至 

  • xImage
  •  

在接觸使用 ChatGPT 這種 AI 工具前也要先認識他們所使用的 AI 模型「LLM」是什麼啦,先看看維基百科的定義:

大型語言模型(Large Language Model, LLM)是一種能夠執行語言生成或其他自然語言處理任務的計算模型。這些模型透過學習大量文本中的統計關係來獲得能力,通常是透過自我監督或半監督的訓練過程完成的。

大型語言模型的重要性在於它們能夠理解和生成自然語言,並且可以被用來解決許多與語言相關的問題,比如自動化翻譯、文本生成、問答系統等等。這些模型已經在多個領域內取得了顯著的成果,例如 OpenAI 的 GPT 系列、Google 的 Gemini 系列,以及 Meta 的 LLaMA 系列等,這些都展示了 LLMs 在處理和生成大規模文本數據方面的強大能力。

我想這樣就可以知道 LLM 主要適用於「處理語言相關的機器學習模型」,也因此 LLM 他是很仰賴「訓練資料集」的一種模型,合理你吐什麼資料給他,他就生成什麼給你,所以適合應用的場景就會是跟「語言相關」的為主,像是:

  • 對話系統:它可以用來建立聊天機器人,幫助公司自動回覆客戶問題,節省人力。
  • 文本生成:可以用來寫文章、生成產品描述,甚至幫助作家創作故事。
  • 翻譯:它能把一種語言自動翻譯成另一種語言,打破語言的障礙。
  • 教育:可以用來幫助學生學習,回答他們的問題,或是提供額外的學習材料。

那為何 LLM 可以寫程式或是畫畫呢?

LLM 之所以能夠生成程式碼或是繪圖,是因為它們背後的工作原理是基於統計和模式識別,而這些原理並不限於語言本身

1. 模式識別與通用性

LLM 在訓練過程中學習了大量文本數據,包括程式碼、數學表達式、圖形描述等。這使得模型能夠識別這些數據中的模式並應用在不同的上下文中。例如:程式碼和語言都遵循某種結構和語法規則,LLM 能夠學習這些規則並應用於生成新程式碼。

2. 多樣化訓練數據

在訓練大型語言模型時,通常會用到多樣化的數據集,這些數據集可能包含了書籍、網站文章、對話記錄,甚至還包括了程式碼片段和圖像生成描述。這讓模型具備了跨領域應用的能力。

3. 生成式任務的相似性

無論是語言生成、程式碼生成還是圖像生成,這些任務的本質都是在給定輸入的基礎上生成合乎邏輯的輸出。模型在語言生成任務中的能力可以擴展到其他類似的生成任務中。例如,當模型學習到如何生成自然語言時,它也能學會如何按照相似的方式生成程式碼或圖像的描述,進而通過接口(如 API)來創建實際的圖像。

4. 利用工具和外部模型

LLM 在生成程式碼或圖像時,有時會結合外部的工具或特定的模型。例如,當你要求模型「畫一隻貓」時,LLM 可能會生成一段描述或代碼,這段描述或代碼再由專門的圖像生成模型(如DALL-E)來轉化為具體的圖像。因此,LLM 的能力實際上是在調用和協同使用不同領域的技術和工具。

因此這樣也幫助我們認識到他背後的運行原理了,下次朋友跟你說 AI 可以幫他做什麼時,不仿也可以想像「這個過程是否是可以符合邏輯或是透過描述來達到的」,如果可以那就是很適合透過 AI 來協助,但如果不行「ex: 在沒有訓練資料集的情況下創造全新的東西」,那或許還是需要透過我們人類來解決了。


上一篇
第 1 天:IT 鐵人競賽完成目標
下一篇
第 3 天:我是怎麼看待 AI 的出現
系列文
從 0 到 1 學習生成式 AI 模型建立以及 Prompt 技巧30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言